史上最全DPU厂商大盘点(完整版)
DPU的战鼓已经敲响
未来五年,中国DPU市场规模或超千亿
作为数据中心的“叱咤红人”
DPU势必会是各个巨头和初创公司的必争之地
自研、并购、融资
各家公司拿出看家本领来抢占市场先机
云厂商、芯片大厂、初创公司……
谁执牛耳?
国内厂商
阿里云
阿里云于2017年10月推出的神龙架构被业界视作迄今最成功的DPU之一。如今,第四代阿里云神龙已经开始支撑阿里云的大规模云上业务。
2022年阿里云峰会上,阿里云发布了一款云数据中心专用处理器CIPU(Cloud infrastructure Processing Units),号称将替代CPU成为云时代IDC的处理核心。CIPU相对轻量级,不是通用计算类芯片,而是专用于云计算数据中心的管控,可以综合调度CPU、GPU、存储硬盘、交换机等硬件。
阿里云的CIPU和亚马逊AWS的Nitro定位类似。它既是硬件盒子,也是管控系统,对接飞天云操作系统。CIPU主要由专用芯片和控制器构成,形态像盒子或智能网卡,主要用于管理飞天云操作系统。
CIPU向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器:
CIPU与计算结合:快速接入不同类型资源的服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离;
CIPU与存储结合:对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%;
CIPU与网络结合:可对高带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5us。
官网:https://www.aliyun.com/
百度智能云
百度智能云基于大量的实践探索推出了太行DPU,以下是其发展路线图:
太行DPU1.0虚拟化功能卸载
弹性网卡,弹性存储,1024个设备热插拔
云管控平面卸载到DPU,虚拟机和裸金属共池
2*25G,10MPPS,20wIOPS
太行DPU2.0数据路径硬件加速
更快速的主机侧接口,NVMe,RDMA
硬件加速的BVS,50MPPS
硬件加速的NVMeoF,100wIOPS
RDMA,10us
太行DPU3.0云原生IO Engine
支持海量细粒度计算实例,B/V/C共平台
硬件资源的全面解耦,计算、存储、网络、异构
软件定义实例,丰富的接口
端到端加速,极低时延
官网:http://home.baidu.com/index.html
大禹智芯
大禹智芯成立于2020年,其创始及核心团队由国内外互联网、云计算头部公司以及传统网络、芯片、安全头部厂商的资深专家组成,拥有DPU设计与研发及DPU大型商业化部署的成功经验。
大禹智芯Paratus系列DPU产品采用三条产品线并行的方式逐步面向广泛商用市场推出易用并好用的DPU产品:
Paratus 1.0作为大禹智芯DPU的第一条产品线产品,采用ARM SoC作为主处理单元,提供多个10Gbps/25Gbps的业务网络接口,同时为了方便用户管理,单独设置了RJ45管理口。
Paratus 2.0作为大禹智芯DPU的第二条产品线产品,采用ARM SoC + FPGA的硬件架构,在Paratus 1.0产品基础上,利用FPGA对可固化逻辑的数据包实现高性能转发,提供多个10G/25G、100G的业务网络接口。
Paratus 3.0作为第三条产品线产品,将采用大禹智芯自研DPU芯片。该芯片将结合公司对DPU相关技术及未来应用场景的理解,和前两条产品线(Paratus 1.0和Paratus 2.0)在实际场景部署中获得的宝贵客户反馈意见和经验积累,形成高度集成化的DPU产品。
官网:https://www.dayudpu.com/
迈普
迈普SNC5000系列SmartNIC是迈普公司面向新一代云数据中心推出的智能化网络接口控制器。该系列智能网卡为公有云/专为云、高性能计算、人工智能和超大规模计算等应用而设计,提供强大的网络和应用平台能力,用于应对现代云和数据中心在网络性能、软件定义网络(SDN)、业务卸载和计算加速等方面的挑战。
迈普SNC5000
该系列产品技术架构先进,根据不同业务应用和场景,提供基于CPU+FPGA芯片的智能网卡方案,国内技术领先。可针对数据中心计算/网络/存储等基础设施,提供区别于传统网卡的强大优化能力,如网络加速、OVS卸载、存储标准化、加解密、安全卸载、裸金属管理、可编程能力等。从芯片到硬件到软件的全方位提供安全可控、稳定、可靠、开放的高性能智能网卡硬软件平台。
官网:http://www.maipu.cn/
沐创集成电路
无锡沐创集成电路设计有限公司成立于2018年12月,是一家集成电路设计科技企业,依托清华大学微电子所,与清华大学无锡应用技术研究院微纳电子与系统芯片实验室展开紧密合作,专注于可重构可编程系统芯片的研发。
沐创RNP N10系列智能网络控制器芯片是基于清华大学可重构技术开发出来的网卡芯片,拥有完全自主知识产权;支持八口10G,双口25G,双口40G 以太网接口,内置可重构处理器内核,支持网络协议卸载处理,同时还支持高效的密码算法加速,通过可重构实现40Gbps 的密码算法处理,支持国际密码(AES/SHA/RSA)和国内商用密码(SM2/3/4)等数十种算法,实现高效的IPSec/TLS 加速。RNP N10智能网络控制器芯片具有高安全、高性能、可编程等特点。
沐创N10系列智能网卡
RNP N10系列芯片可以作为国产化的通用网络控制器芯片实现通用网卡功能,也可以作为智能网络控制器芯片实现智能网卡功能,同时作为网络安全芯片实现安全网卡功能,可适配包括服务器、网络安全设备、嵌入式应用等多种应用场景。
官网:https://www.mucse.com/home
锐捷网络
锐捷网络成立于2003年,是行业领先的ICT基础设施及行业解决方案提供商。
锐捷网络湛卢系列智能网卡基于FPGA+SOC增强架构,支持裸金属和虚拟化两种模式,通过FPGA实现OVS快路径的转发功能卸载,通过SOC实现OVS DPDK慢路径转发和存储SPDK控制功能卸载,因此支持转发和控制功能的网络全卸载。
锐捷网络湛卢1000 智能网卡
锐捷网络湛卢2000是一款2*100G QSFP56接口的智能网卡,产品全高半长双宽,基于PCIE 4.0 X16打造。FPGA选用Intel Agilex FM71搭配16G 四通道DDR4内存,SoC选用Intel Xeon D-1734 8核2.0Ghz主频处理器搭配32G 双通道DDR4内存。产品主要应用场景为高性能计算RDMA通信场景、裸金属虚拟化和存储卸载场景,支持NVMe of TCP/RDMA。
官网:https://www.ruijie.com.cn/
锐文科技
锐文科技xSmartNIC使用FPGA为载体,通过自主研发的网络报文处理IP, 网络协议解析IP,网络报文加解密算法IP及低延迟DMA IP等,实现FPGA内的低延迟低功耗电路设计。同时,通过与软件驱动及业务API接口的配合,实现高吞吐率、低延迟,卸载CPU负荷的智能网卡解决方案。锐文科技创造性地在FPGA内实现P4可编程数据平面与OvS数据平面的逻辑耦合,同时通过最新研发的与板上多核ARM业务配合的方式,实现更多场景下的业务需求。
官网:https://www.raymax.net/
为是科技
江苏为是科技有限公司长期致力于低延时通信、光广播、数据中心高通量网络传输的原创性工作,开创了容损RDMA(LT-RDMA)技术的研究。Viscore VX-S100是一个双端口100 Gb/s 的基于Xilinx FPGA的智能网卡:
全高、全长、双卡槽厚度
PCIe 3.0 x16 接口
双端口可插拔光接口,支持QSFP28/QSFP+光模块以及AOC/DAC高速线缆
可配置为100G QSFP28或40G QSFP+
16/32G内存
为是科技自主开发的SmartNIC方案利用Viscore VX-S100实现了长距离、有损环境下的LT-RDMA技术。此外,为是科技研发的Viscore VSE22531S型号商用网卡已实现了RDMA以及拥塞控制等高级功能特性,在IDC、HPC以及EDC市场都有成熟的应用。在此基础上其正在研发支持LT-RDMA的VX-S100 RDMA智能网卡,目前已与多个客户展开应用合作。
官网:https://www.viscore.com/
芯启源
芯启源成立于2015年,聚焦网络通讯、5G和云数据中心等众多先进领域,客户包括且不限于运营商及二级运营商、路由器交换机设备商、OTT及互联网厂商、网络安全厂商、5G/6G设备商等。
芯启源具有完全自主知识产权的DPU芯片。芯启源DPU较传统智能网卡提供了更大的处理能力、更强的灵活性、可编程数据包处理、可扩展Chiplet(小芯片)结构等特性。采用NP-SoC模式进行芯片设计,通用ARM架构结合高度优化面向数据包的NP芯片(RISC-V内核)、多线程的处理模式,使其可以达到ASIC固化芯片的数据处理能力,同时考虑到了全量可编程、灵活可扩展的属性,用以支持400Gbps及以上的性能目标、低功率且具有成本效益等。
芯启源DPU架构中采用的Chiplet(小芯片)技术是一种全新的芯片设计方式,也是业内众多企业正在引入的关键芯片技术。Chiplet将满足特定功能的Die(裸片)通过Die-To-Die内部互联技术实现多个模块芯片与底层基础芯片封装在一起,形成一个系统芯片。Chiplet技术将原本一块复杂的SoC芯片分解为芯粒,类似模块化设计,有利于缩短产品商用时间和后续产品的迭代,同时通过支持与第三方芯片的Die-To-Die互联,还可以集成更多的特定专业领域的芯片。在性能和功能丰富度有飞跃式提升外,也为芯启源的客户提供更多业务场景的支持能力。
官网:
https://www.corigine.com.cn/cn/index.html
星融元
星融元数据技术有限公司成立于2017年,旗下的云网交换机、白盒硬件平台、DPU网卡等产品广泛应用于运营商、互联网、公/私有云等行业。Helium智能网卡是星融元Asterfusion自主研发的基于高性能DPU芯片的25GE/100GE以太网智能网卡,助力客户构建高性能、智能化、可编程的业务网络,能够充分释放服务器内宝贵的计算资源,节约用户的建设和运营成本。
Helium智能网卡能够提供高达100Gbps典型混合业务处理能力,符合PCIe及以太网协议,提供PCIe*16 Gen3.0/Gen4.0通道接口,Asterfusion为客户提供了软硬一体的一站式综合开发环境,除了高性能硬件平台外,还提供了底层基座操作系统和开发套件,客户可以不用考虑底层支撑框架,直接开发上层应用程序即可,从而可以加速开发和移植进度,客户原来跑在x86服务器上的各种DPDK应用和VPP应用,仅需要简单编译就可以迅速移植到Helium智能网卡上。
Helium智能网卡可广泛应用于网络加速、安全加速、存储加速等领域,如OVS卸载/VTEP、TCP卸载、5G UPF加速、IPSec、SSL、XDP/eBPF、vFW/vLB/vNAT、NVMe-oF(TCP)、压缩/解压缩等,具有高性能、易移植、多应用场景等特点。
官网:https://asterfusion.com/
星云智联
星云智联成立于2021年3月,是一家专注于数据中心通信架构和DPU芯片研发的创新企业。星云智联将于2022年下半年推出多款DPU/SmartNIC产品,可广泛应用于公有云、私有云、边缘云等云计算场景,以满足公有云,互联网,行业,企业客户的网络、存储、安全等业务需求。
DPU产品具备SR-IOV,VirtIO硬件虚拟化,OVS硬件流表全卸载, 全流统计、HQoS,裸金属云盘启动,云盘挂载,IPMI管理等多种核心特性,主要应用在云计算数据中心服务器,实现裸金属、虚拟机、容器、分布式存储,AI/HPC等场景的等网络与存储卸载加速。首发产品为2x25GbE规格DPU,2x100GbE规格DPU产品也将在后续推出。
SmartNIC产品具备SR-IOV虚拟化,数据面多队列高性能收发包,DPDK,RSS,ToE卸载,VLAN tag和VLAN过滤,以太网端口队列和流控,Jumbo帧, PXE启动等功能,主要应用在企业数据中心,超融合,存储集群、安全网关、工控机等场景。产品有4x10 GbE,2x10 GbE, 2x25 GbE多种规格。
星云智联自研DPU&SmartNIC芯片将于2023年发布,内部集成高性能硬件流转发、virtio虚拟化,层次化的HQoS、RDMA RoCEv2、安全卸载加速等功能,助力实现多种规格DPU/SmartNIC板卡产品,满足不同客户和场景的需求。
官网:http://www.nebula-matrix.com/
益思芯科技
益思芯科技成立于2020年7月,团队由国内外网络、交换、存储领域的核心专业人员组成,在网络、交换、存储及高性能CPU等领域具有深厚的技术实力。
Stargate DPU智能网卡是国内第一款商用、具有自主知识产权的P4可编程云原生智能网卡,益思芯科技的P4网络加速引擎是全球首款针对vSwitch加速而设计的VLIW ISA P4处理器,支持千万级流表的同时性能可以做到数据包线速转发。该网卡是OVS、NFV、SDN vRouter、5G UPF等网络应用加速的最佳选择,具备高性能、低延迟、高灵活性、低功耗等特点:
高性能:在网卡上,单个P4引擎可以实现网卡全双工吞吐速率。
低延迟:采用了指令级别并行处理架构,报文处理延迟可控制在纳秒级别。
高灵活性:全面兼容P4-16版本,满足灵活的协议处理和系统平滑升级需求。
低功耗:作为领域专用架构(Domain-specific Architecture),针对vSwitch加速而设计。在相同性能指标下,预估功耗只为传统NP架构和多核CPU架构的1/10。
官网:http://www.resnics.com/
云豹智能
深圳云豹智能是一家专注于云计算和数据中心数据处理器芯片(DPU)和解决方案的领先半导体公司。
2021年12月,云豹智能发布全功能云霄DPU产品,全面支持裸金属、虚拟机和容器服务资源一体化,以及高性能2x25G网络,提供弹性存储、弹性网络、虚拟化管理和安全加速等一站式解决方案。云霄DPU网卡主要具备以下特性:
提供裸金属、虚拟机和容器统一运维和管理
支持热插拔、热迁移和热升级
提供软硬件卸载和加速,以及灵活可编程能力
支持标准Linux
云豹云霄DPU产品卸载了Hypervisor,帮助数据中心降低系统延迟,提升系统响应效率使裸金属和虚拟机统一运维和并池,降低的服务器数量和成本,减少空置的裸金属服务器或虚拟机服务器数量,减少了数据中心的成本,减少了耗电和机房面积占用,能够为数据中心节能解排起到积极的作用。
官网:https://www.jaguarmicro.com/
云脉芯联
云脉芯联创立于2021年5月,是一家专注于云数据中心网络芯片产品研发与技术创新的高科技创新企业。
2022年5月31日,云脉芯联正式发布自主研发的国内首款多场景RDMA智能网卡(DPU)产品——xFusion50。2023上半年,云脉芯联将发布下一代高性能DPU芯片。xFusion50是云脉芯联成功自主研发的第一款产品,也是国内首款实现包括支持端到端拥塞控制完整RDMA功能的DPU产品,xFusion50基于硬件实现的可编程拥塞控制算法能够有效避免网络拥塞,充分发挥RDMA技术的低延迟和高性能,支持云计算、高性能计算、AI、存储集群全场景部署。xFusion50产品具有以下核心亮点:
支持可编程拥塞控制算法,可编程拥塞控制算法是实现端到端无损网络的关键技术;还可以通过开放可编程的底层网络接口,可根据客户的组网特点和上层业务的需求,灵活支持多种拥塞控制算法,最大化业务的流量吞吐。
通过自主研发HyperDirect技术支持GPU Direct RDMA 为跨计算节点的GPU实现远程内存直接访问,跳过CPU以降低时延、提升带宽,提升分布式异构算力集群的整体效能。
支持网络/存储全场景卸载加速,支持vSwitch全卸载,实现云上VPC网络全功能;支持存储卸载,对接分布式存储NVMe-oF(TCP/RDMA),充分释放宿主机CPU资源。并通过支持VirtIO实现弹性网络和弹性存储,满足云上用户无缝迁移和快速恢复的业务诉求。
官网:https://www.yunsilicon.com/
之江实验室
之江实验室由浙江省人民政府主导举办,以“打造国家战略科技力量”为目标,主攻智能感知、人工智能、智能网络、智能计算和智能系统五大科研方向。
SmartNIC-ZJ001是基于FPGA芯片开发的100G智能网卡,采用国产FPGA芯片,提供服务端PCIe3.0x8通道。网卡基于硬件RTL语言开发和实现了P4可编程报文处理引擎、IPSeC加速引擎、二层报文交换引擎、100G-MAC协议接口、DPDK加速引擎等逻辑功能单元;针对网卡的P4可编程功能,开发和实现了配套的后端编译器,支持无缝对接P4逻辑前端开发环境。网卡研发依托于面向分布式计算环境的全维可定义智信网络项目,为全维可定义网络提供可编程的硬件平台支持,在实现时侧重于可编程能力以及网络接口的高带宽和低延时。
SmartNIC-ZJ001已在多模态网络平台中通过了可编程功能和安全性测试。性能指标如下:
(1)支持100Gbps线速报文收发和交换;
(2)支持100Gbps报文基于P4程序的自定义解析、处理和封装;
(3)基于P4的报文处理延时小于0.5us。
(4)支持10Gbps的IPsec报文处理,报文处理延时小于0.5us。
(5)支持5层任意报文头的自定义解析;
(6)支持16元组的任意匹配。
官网:https://www.zhejianglab.com/
中科驭数
中科驭数成立于2018年,聚焦专用数据处理器的研发设计,基于自研敏捷异构KPU芯片架构以及DPU软件开发平台HADOS,公司自主研发了业界首颗融合高性能网络与数据库一体化加速功能的DPU芯片和标准加速卡系列产品,可广泛应用于超低延迟网络、大数据处理、5G边缘计算、高速存储等场景,助力算力成为数字时代的新生产力。
在DPU产品的研发迭代方面,中科驭数于2019年流片了第一代DPU芯片K1,第二代DPU芯片K2也于2022年初成功投片,目前已开始第三代DPU芯片K2 Pro的研发工作;2021年9月,中科驭数首发DPU加速卡产品,其时延达到业界领先的1.2微秒。另外也有DPU存储加速卡、DPU数据计算加速卡等产品和解决方案在研发进程中。在产品核心技术特色方面,中科驭数的DPU芯片创新性地采用软件定义加速器技术路线,实现了软硬协同的DPU设计方案。具体创新点如下:
高效的异构众核DPU架构,基于软件定义加速器路线,研发了异构众核DPU芯片设计方法,解决了多核互联、计算调度、指令控制等核心问题。
超高带宽网络协议处理,研发专用网络协议处理核和大数据分析处理核,解决了软件解析网络包协议解析和数据处理的瓶颈,大大提升服务器间通信效率,提升数据中心水平扩展能力。
统一的虚拟化硬件平台,针对数据中心网络、计算、存储融合的虚拟化需求,研究统一高效的硬件设备虚拟化架构,解决现有方案单一虚拟化功能的窘境(仅支持网络虚拟化),充分释放DPU各类资源能力,更高效支撑复杂上层应用。
统一的DPU软件开发框架HADOS,解决现有编程框架碎片化的问题,使得应用部署更加简单高效。
官网:https://www.yusur.tech/
国外厂商
Achronix
Achronix是一家无晶圆半导体公司,提供基于 FPGA 的高端数据加速解决方案,旨在满足高性能、计算密集型和实时处理应用的需求。Achronix提供Speedster7t FPGA 系列和Speedcore eFPGA IP。用户可以将该技术部署为独立产品、ASIC或SoC设计。Achronix 还提供 VectorPath加速卡。
Achronix Speedster7t FPGA 系列针对高带宽工作负载进行了优化,消除了与传统 FPGA 相关的性能瓶颈。Speedster7t FPGA 基于台积电的 7nm FinFET 工艺构建,具有全新2D 片上网络 (2D NoC) 、一系列针对高带宽和人工智能/机器学习 (AI/ML) 进行优化的新型机器学习处理器 (MLP )工作负载、高带宽 GDDR6 接口、400G 以太网和 PCI Express Gen5 端口,提供 ASIC 级性能,同时保留 FPGA 的完全可编程性。
官网:https://www.achronix.com/
AMD
AMD半导体公司成立于1969年,专门为计算机、通信和消费电子行业设计和制造各种CPU、GPU等微处理器。2022年2月,AMD终于完成了对Xilinx的收购,这笔价值接近500亿的交易为AMD带来了Xilinx的FPGA可编程逻辑模块和相关的DSP引擎、AI加速器、内存控制器等关键技术,为AMD补齐了技术储备。
Xilinx提供的DPU/SmartNIC是 Alveo 系列,Alveo 系列基于 FPGA,能够加速计算密集型应用程序,包括机器学习推理、数据分析、视频转码和许多其他工作负载,Alveo 系列的性能比 CPU 的性能高90倍,并且能够根据用户的具体要求对其进行重新编程,由于算法比芯片设计周期发展得更快,因此需要能够适应不断变化的算法的可编程硬件。
Xilinx Alveo SN1000 是业界首款为单个平台中的所有功能卸载提供软件定义硬件加速的 SmartNIC。SN1000 SmartNIC 直接卸载 CPU 密集型任务以优化网络性能,其架构可以以线速加速各种自定义卸载,包括支持客户构建和第三方卸载。SN1000 SmartNIC 基于 Xilinx 16nm UltraScale+™ 架构,由低延迟 Xilinx XCU26 FPGA 和 16 核 Arm® 处理器提供支持。
2022年5月,AMD 宣布完成对 Pensando Systems 的收购,交易价格约为 19 亿美元。Pensando 的分布式服务平台,将通过高性能数据处理单元(DPU)和软件堆栈扩展 AMD 的数据中心产品组合。这些产品已在高盛、IBM Cloud、Microsoft Azure 和 Oracle Cloud 等云和企业客户中大规模部署。Pensando 的 Elba SoC 是一款专注于智能网络交换机的DPU,上一款 Capri DPU被用于 Aruba CX 10000 。
官网:https://www.amd.com/en
AWS
追溯DPU的源头,真正实现大规模商用DPU架构的主要有两家云计算巨头:Amazon AWS和阿里云。Amazon Nitro系统从 2013 年开始研发,2017 年正式发布,旨在最大化性能和安全。
AWS Nitro产品家族旨在将数据中心开销(为虚拟机提供远程资源、加密解密、故障跟踪、安全策略等服务程序)全部从CPU卸载到Nitro加速卡上,将给上层应用释放30%的原本用于支付“Tax” 的算力。
Nitro系统主要由三部分组成:
以PCIe卡形式呈现的Nitro卡,主要包括支持网络功能的VPC(Virtual Private Cloud)卡,支持存储功能的EBS(Elastic Block Store)、Instance Storage卡和支持系统控制的Nitro Controller卡。
Nitro安全芯片,该芯片提供Hardware Root of Trust,防止运行于通用服务器上的软件对non-volatile storage进行修改,比如虚拟机的UEFI程序。
运行于通用服务器的Nitro Hypervisor,这是个基于kvm的轻量级hypervisor,主要提供CPU和内存的管理功能,不提供设备的模拟(因为所有的设备都是通过透传的方式添加到虚拟机中)。
官网:https://aws.amazon.com/cn/
Azure
AzureAzure 的 Catapult项目于 2013 年推出了第一个在数据中心部署支持 FPGA 的服务器试点项目,该项目显示延迟有显着改善,在减少了服务器数量的情况下,运行决策树算法的速度比单独使用 CPU 快 40 倍。
2012年Azure在其WCS云存储中部署了Catapult v1,此后在Bing和Azure内所有新购买的服务器中部署了Catapult v2。到 2015 年,微软将 FPGA 大规模部署到其 Azure 公共云中,并且在一年内,其 AccelNet 计划引入了基于 FPGA 的 SmartNIC 作为在 Azure 中实现虚拟网络功能的默认硬件,并且在超过 100 万台主机中部署了 FPGA。2017年,Azure部署了Catapult v3,以加速深层神经网络并将Bing中的网络速度提高到50 Gb /秒。
官网:https://azure.microsoft.com/
Broadcom
AzureBroadcom的Stingray 结合了强大的网络控制器、高性能 ARM CPU、PCI Express 3.0、性能加速器和 DDR4 RAM,将计算密集型应用程序从主机服务器的 CPU 卸载。
Stingray 能够提供高数据包速率和低延迟。Broadcom以NetXtreme E系列控制器的逻辑为基础,在Stingray的核心部分设计了NetXtreme-S BCM58800芯片,然后在集群配置中放置了8个主频为3 GHz的Arm v8 A72内核。此外,Stingray还可以配置16 GB DDR4内存。
Broadcom还采用了TruFlow技术,这是一个可配置的流加速器,用于将常见的网络流过程转移到硬件中。从已发布的数据来看,TruFlow可以在硬件上卸载诸如Open vSwitch(OvS)之类的任务。该公司还声称TruFlow在硬件中实现了许多经典的SDN概念,比如分类、匹配和操作。因此,Stingray配备了两个可编程组件,即TruFlow和由四个3 GHz双核Arm v8 A72复合体组成的集群。
官网:https://www.broadcom.com/
Fungible
Azure2019年,Fungible将DPU定义为一种新型数据处理单元。Fungible的F1 DPU是业内第一个800Gbps的DPU,也是Fungible DPU系列的旗舰产品。
在架构上,F1 DPU集成了大量的多核处理器,52个核心均为最新一代的MIPS64 R6内核,不仅支持硬件虚拟化也将其分为独立的控制单元。F1 DPU采用了双发射流水线设计,配有64KB的L1 I-cache和80KB的L1 D-Cache,且L1缓存支持缓存之间的数据传输,总计片上L2缓存达到32MB。内存方面,F1 DPU除了集成8GB的HBM外,还支持双通道每通道最高512GB的DDR4内存。
利用了独特的硬件与软件结合设计,在不影响数据中心计算能效的前提下,F1 DPU提供了最大的功能灵活性。这使得F1 DPU可以用于高性能密度和低时延的环境,比如存储(NVMe/TCP存储卸载)、安全、AI/ML(GPU解耦)和数据分析服务器(OLAP、OLTP大数据分析引擎)。以存储为例,在无需x86 CPU和AFA的存储系统中,F1 DPU可以做到15M IOPS的表现,而这里的带宽限制完全是来自于PCIe本身的带宽限制。
官网:https://www.fungible.com/
Intel
在“Intel Vision 2022”大会上,Intel公布了其最新的IPU路线图,展示了从2022年至2026年IPU的整体规划。英特尔将继续 ASIC + FPGA IPU 设计,其IPU路线图如下:
2022年:推出了200 Gbps IPU,代号为Mount Evans和Oak Springs Canyon。
2023/2024年:推出 400 Gbps IPU,代号为Mount Morgan和Hot Springs Canyon。
2025/2026 : 推出800 Gbps IPU。
Mount Evans是Intel首个ASIC IPU,与Google Cloud合作开发,针对高端和超大规模数据中心服务器。Oak Springs Canyon是Intel第二代基于 FPGA 的 IPU 平台,该平台采用Intel Xeon-D和Agilex FPGA 构建。
Intel IPU 技术的关键之一是所有设备都支持的快速可编程数据包处理引擎。无论是 FPGA 还是基于 ASIC 的产品,客户都可以使用P4 对其进行编程,并支持查找、更改、加密和压缩等流程。
另外,Intel还推出了IPU的开源开发工具包IPDK ,它可以用于为x86芯片和Arm芯片(如Marvell的Octeon)编写应用程序。该工具包包括用于自定义和定义工作负载的功能块,其中包括卸载包处理。(更多可点击:IPDK:可编程基础设施时代的开源开发框架)
官网:https://www.intel.com/
Kalray
Kalray 是一家无晶圆厂半导体公司,成立于 2008 年,是CEA法国实验室的衍生公司。
Kalray 第三代 MPPA® DPU处理器又名Coolidge。Coolidge能够并行管理多个工作负载,以实现更智能、更高效和节能的数据密集型应用程序。Coolidge充分利用 Kalray 的专利 MPPA®(大规模并行处理器阵列)架构,是一款可扩展的 80 核处理器,专为智能数据处理而设计。它为 GPU、ASIC 或 FPGA 提供了独特的替代方案,为从数据中心到边缘和嵌入式系统的多个应用程序带来了独特的价值。
基于其 MPPA® 处理器,Kalray's 开发了一系列以数据为中心的加速卡K200/K200-LP,提供高性能和高度可编程性。可用作:
加速卡,在纯加速卡(通过 PCIe)或内联加速卡(通过以太网)上将主机CPU卸载到专用的数据密集型应用程序上。
一种独立的解决方案,在某些用例中替代主机处理器,例如为服务提供商开发的 K200-LP,以构建其下一代存储设备。
官网:https://www.kalrayinc.com/
Marvell
Marvell成立于1995年,总部在硅谷,在中国上海设有研发中心,是一家提供全套宽带通信和存储解决方案的全球领先半导体厂商。
Marvell的OCTEON和ARMADA设备设计用于无线基础设施和网络设备,包括交换机、路由器、安全网关、防火墙、网络监控和智能网卡(SmartNIC),并支持全面统一的SDK和开源API,用于广泛的网络、安全和计算市场应用。
Marvell 的 OCTEON 10 DPU 系列针对超大规模云工作负载、5G 无线传输、5G RAN 智能控制器 (RIC) 和边缘推理、运营商和企业数据中心应用以及无风扇网络边缘盒进行了优化。OCTEON 10采用台积电5nm制程工艺和ARM的Neoverse N2 CPU内核,外加上一代OCTEON TX2的众多功能构建块阵列,同时还包括集成机器学习推理的引擎、内联加密处理器以及矢量数据包处理器等先进的IP以及功能,而且都能够以虚拟化方式运行。作为DPU的重要补充,Marvell还为OCTEON 10引入内部机器学习(ML)引擎。
业界首款采用 Arm Neoverse N2 内核的 5nm DPU,与前几代 OCTEON 相比,计算性能提高 3 倍,功耗降低 50%
用于内联 ML/AI 的创新硬件加速器提供比基于软件的推理 100 倍的性能提升
基于 VPP 的硬件加速器将数据包处理速度提高了 5 倍以上
集成 1 Terabit 交换机、真正的内联加密和高度可编程的数据包处理
数据路径支持超过 400G
支持最新的PCIe 5.0 I/O与DDR5内存
官网:https://www.marvell.com/
Napatech
Napatech是基于可编程 FPGA 的SmartNIC解决方案供应商,服务于全球电信、云、企业、网络安全和金融应用。Napatech SmartNIC包括 1 GbE、10 GbE、25 GbE、40 GbE 和 100 GbE 选项,同时提供软件支持,可从服务器 CPU 中卸载计算密集型网络和安全处理。
Napatech NT200A02 SmartNIC 基于 Xilinx 强大的 UltraScale+ VU5P FPGA 架构,支持 2×1/10G、8x10G、2×10/25G、4×10/25G、2x40G、2x100G 应用。NT200A02 SmartNIC 支持 GTP、IP-in-IP、NVGRE、VxLAN等隧道协议,通过高级接收侧扩展实现CPU核心的充分利用。NT200A02 SmartNIC 还可以删除重复报文、分片报文和过滤报文,以减少数据量,从而卸载服务器系统和应用程序。支持 1.4 亿个流的有状态流处理,使 CPU 密集型应用能够智能地准确选择要处理的流和要忽略的流。维护所有流的流记录并向应用程序报告。
官网:https://www.napatech.com/
Netronome
Netronome是一家专注做网络流处理器加速半导体的公司,其Agilio系列 SmartNIC在不消耗大量 CPU 内核的情况下,提供了云运营商和服务提供商所需的性能和可编程性。
Netronome Agilio CX SmartNIC采用小尺寸 PCIe 外形以及 10、25、40 和 50GbE 吞吐量,卸载整个虚拟交换机数据路径处理,以实现覆盖、安全、负载平衡和遥测等网络功能。
Agilio FX 10GbE SmartNIC 将公司的NFP与四核通用 Arm v8 相结合,提供了极大的灵活性以应对服务器和网络可扩展性挑战。
Agilio LX 40/100GbE SmartNIC专为基于x86服务器的虚拟化和非虚拟化业务节点和WAN网关设计的。该解决方案为移动核心、安全、负载平衡和网关应用程序中使用的网络功能提供了显着的扩展性。
官网:https://www.netronome.com/
Nvidia
Nvidia创立于1993年,总部位于美国加利福尼亚州圣克拉拉市。1999年,Nvidia定义了GPU,极大地推动了PC游戏市场的发展,重新定义了现代计算机图形技术。2020年4月,NVIDIA官方宣布已完成对Mellanox的收购,产品布局覆盖CPU、GPU和DPU。
NVIDIA BlueField DPU为现代数据中心带来了创新。通过对各种高级网络、存储和安全业务进行卸载、加速和隔离,BlueField DPU 可为云、数据中心或边缘计算等环境中的各种工作负载提供安全加速的基础设施。BlueField DPU 将强大的计算能力、完整的片上基础设施可编程性及高性能网络相结合,支撑要求严苛的工作负载。
从边缘到中心的安全性:BlueField DPU 支持零信任的全方位安全架构,覆盖数据中心及边缘计算。
为不断扩展的工作负载提供弹性存储:借助 NVMe over Fabric (NVMe-oF)、GPUDirect 存储、加密、弹性存储、数据完整性、解压缩和重复数据删除的支持,BlueField 可提供高性能存储访问方案,为远程存储实现媲美直连式存储的超低延迟。
高性能且高效的网络:BlueField 是一款强大的数据中心服务加速器,可为传统应用和现代 GPU 加速的应用提供高达 400 Gb/s 的以太网或 InfiniBand 连接速度,同时释放主机 CPU 内核,以运行基础设施任务之外的应用。
软件定义的基础设施:NVIDIA DOCA™ 软件开发套件 (SDK) 使开发人员能够利用行业标准 API 轻松创建高性能、软件定义、云原生的 DPU 加速服务。
NVIDIA BlueField-3 是首款以线速处理软件定义网络、存储和网络安全的 400Gb/s DPU。BlueField-3 将强大的计算能力、高速网络和广泛的可编程性相结合,为要求苛刻的工作负载提供软件定义的硬件加速解决方案。从加速 AI 计算,到混合云,再到云原生超级计算和 5G 无线网络,BlueField-3 重新定义了各种可能性。
官网:https://www.nvidia.com/en-us/
Silicom
Silicom 是行业领先的高性能网络和数据基础设施解决方案提供商。
Silicom FPGA SmartNIC N5010 一款硬件可编程 4x100G FPGA SmartNIC,集成了一块Intel Stratix 10 DX FPGA 和一个英特尔® 以太网 800 系列适配器,可针对处理数据包和流量管理进行优化。N5010 系列配备 8GB HBM2,以及 DDR4 内存和四通道 QSFP28,支持 4x 100 Gigabit/s,最高可达500Gbps。
Silicom N5110A PCIe SmartNIC 是一款全长 PCIe 单插槽卡,通过板载 Intel Atom P5900 处理器和 Intel Stratix 10 FPGA 提供极高的计算性能和线速网络切换。
Silicom P425G2SNx IAONIC SmartNIC基于包含 8/16 个X86 内核的 Intel P5700 处理器、具有 25G/100G 接口的集成数据包处理器和使用 Intel® E810 的以太网 MAC。具有 2 个 25G 端口或 1 个 100G 端口的硬件标准 NIC(通过 PCIe v4)接口,能够从主主机卸载完整的基础架构工作负载,同时仍以线速工作。
Silicom FPGA SmartNIC N5010
官网:https://www.silicom-usa.com/
您认为哪个DPU厂商最具发展前景?
欢迎大家在评论区发表您对DPU未来发展的看法。
【活动专栏】
【转载须知】
若转载文章为原创文章,可在相应文章下或公众号后台留言;其他非转载类文章须在文首以不小于14号字体标明转载自SDNLAB。【投稿】
欢迎智能网卡/DPU、SDN、SD-WAN、确定性网络、TSN、5G、网络切片等网络方向的观点类、新闻类、技术类稿件。联系人:kk__wu(微信号)投稿邮箱:pub@sdnlab.com详情请参考:2022 SDNLAB原创文章奖励计划